Was ist ein Problem? Databricks Solving und wie profitieren Sie davon?
Das größte Problem, das Databricks für mich löst, ist der "Tool-Wildwuchs", den jedes Datenteam irgendwann erlebt. Bevor wir es eingeführt haben, hatten wir ein Tool für die Datenaufnahme, ein anderes für die Transformation, ein separates Warehouse für Analysen, eine weitere Plattform für ML-Experimente und eine Menge Skripte, die alles mit Klebeband zusammenhielten. Jedes Mal, wenn etwas kaputt ging, verbrachte man den halben Tag damit, herauszufinden, welches Teil in der Kette schiefgelaufen war. Databricks hat das im Grunde alles in eine einzige Lakehouse-Plattform zusammengefasst, auf der meine Rohdaten, kuratierten Tabellen, Dashboards und ML-Modelle alle zusammenleben. Das allein hat unsere Reaktionszeit bei Vorfällen drastisch verkürzt, weil es nur einen Ort gibt, an dem man nachsehen kann, ein Set von Logs und ein Abstammungsdiagramm, das genau zeigt, wo etwas schiefgelaufen ist.
Das zweite große Problem, das es angeht, ist die Mauer zwischen Dateningenieuren und Datenwissenschaftlern. In meinen vorherigen Setups bauten die Ingenieure Pipelines und luden Daten in ein Warehouse, dann exportierte das Data-Science-Team diese Daten in ihre eigene Umgebung, machte ihr Ding und warf ein Modell zurück über den Zaun, das wir bereitstellen sollten. Es war langsam, fehleranfällig und niemand arbeitete jemals mit derselben Version der Daten. Mit Databricks arbeiten beide Teams im selben Arbeitsbereich an denselben Datensätzen, die durch den Unity Catalog verwaltet werden. Die Wissenschaftler können in Notebooks experimentieren, ein Modell in MLflow registrieren, und ich kann es aufnehmen und zu einem Bereitstellungsendpunkt deployen, ohne Dateiübertragungen oder Formatkonvertierungen. Dieses Hin und Her, das früher Wochen dauerte, passiert jetzt in Tagen, manchmal Stunden.
Der Vorteil, der mich ehrlich gesagt am meisten überrascht hat, ist, wie viel Zeit ich für die eigentliche Ingenieursarbeit zurückbekommen habe, anstatt die Infrastruktur zu betreuen. Dinge wie Spark Declarative Pipelines übernehmen die Wiederholungslogik, Schema-Durchsetzung und Datenqualitätsanforderungen von Haus aus, Dinge, für die ich früher benutzerdefinierten Code geschrieben habe. Der Jobs-Orchestrator hat unsere Airflow-Instanz ersetzt, was bedeutet, dass ein Server weniger zu warten ist und eine Sache weniger zu patchen und zu aktualisieren. Selbst die Governance-Seite wurde einfacher, weil der Unity Catalog nachverfolgt, wer auf welche Daten zugegriffen hat und woher sie kamen, was früher jedes Quartal ein manuelles Audit-Albtraum war. All diese freigewordene Zeit bedeutet, dass ich mich darauf konzentrieren kann, neue Pipelines zu bauen und die Datenqualität zu verbessern, anstatt ständig betriebliche Probleme zu bekämpfen. Bewertung gesammelt von und auf G2.com gehostet.